Unscharfe Suche für Terme geringer Frequenz in einem großen Korpus
نویسنده
چکیده
Until now infrequent terms have been neglected in searching in order to save time and memory. With the help of a cascaded index and the introduced algorithms, such considerations are no longer necessary. A fast and efficient method was developed in order to find all terms in the largest freely available corpus of texts in the German language by exact search, part-word-search and fuzzy search. The process can be extended to include transliterated passages. In addition, documents that contain the term with a modified spelling, can also be found by a fuzzy search. Time and memory requirements are determined and fall considerably below the requests of common search engines.
منابع مشابه
Semantik-gestutzte Analyse von und Suche in Kundenspezifikationen im Maschinenbau
Die gezielte Suche von Informationen in großen Dokumentenmengen ist eine der wesentlichen Herausforderungen der heutigen Zeit. In diesem Papier wird beschrieben, wie wir die Analyse von und Suche in mehrsprachigen Kundenspezifikationen in einem aktuellen Kundenprojekt im Maschinenbau realisiert haben. Im Rahmen der Dokumentenanalyse kommen computerlinguistische und semantische Technologien zum ...
متن کاملGebrauchstauglichkeit der Ergebnisseiten von Suchmaschinen
Bei Ergebnisseiten von Suchmaschinen nutzen Anwender die Informationen in den Linkbeschreibungen, um zu entscheiden, ob ein Link für die Suche relevant ist und weiterverfolgt werden soll. Die Linkbeschreibung ist damit ein Kernelement im Selektionsprozess der Suche. Ein neues Modell für eine systematische und differenzierte Forschung über Ergebnisseiten von Suchmaschinen wird vorgestellt. Dazu ...
متن کاملEntwurf eines Quellcode basierten Qualitätsmodells für die Softwarewartung
Die Wartbarkeit eines Softwaresystems ist ein wichtiger Faktor für seinen langfristigen Einsatz. In diesem Beitrag wird ein Qualitätsmodell auf Quellcode-Basis entworfen, das den Wartbarkeitsbegriff konkretisiert und messbar macht. Ziel ist die Untersuchung der Qualität eines an der Universität entwickelten großen Systems zur Prüfungsverwaltung. 1 Nachhaltigkeit als Qualitätsaspekt von Quellcod...
متن کاملUsing Distributional Similarity for Lexical Expansion in Knowledge-based Word Sense Disambiguation
We explore the contribution of distributional information for purely knowledge-based word sense disambiguation. Specifically, we use a distributional thesaurus, computed from a large parsed corpus, for lexical expansion of context and sense information. This bridges the lexical gap that is seen as the major obstacle for word overlap–based approaches. We apply this mechanism to two traditional k...
متن کاملAufbau eines Referenzkorpus zur deutschsprachigen internetbasierten Kommunikation als Zusatzkomponente für die Korpora im Projekt 'Digitales Wörterbuch der deutschen Sprache' (DWDS)
Dieser Beitrag gibt einen Überblick über die laufenden Arbeiten im Projekt „Deutsches Referenzkorpus zur internetbasierten Kommunikation“ (DeRiK), in dem ein Korpus zur Sprachverwendung in der deutschsprachigen internetbasierten Kommunikation aufgebaut wird. Das Korpus ist als eine Zusatzkomponente zu den Korpora im BBAW-Projekt „Digitales Wörterbuch der deutschen Sprache“ (DWDS, http://www.dwd...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2010